0
聯邦學習作為新一代人工智能基礎技術,正在滲透到AI商用瓶頸的根源,通過解決數據隱私與數據孤島問題,重塑金融、醫療、城市安防等領域。
近兩年,在楊強教授等世界級專家的聯合推動下,國內外諸多科技巨頭,均已開始搭建聯邦學習的研究與應用團隊。
三年時間過去,國內已經出現聯邦學習、共享智能、知識聯邦、聯邦智能和異步聯邦學習等多個相關研究方向。
花開五朵,各表一枝。
今天,雷鋒網《AI金融評論》將對這五大方向進行詳細梳理,一覽國內聯邦學習發展現狀。
聯邦學習從某種程度上講,與微眾銀行掛上了等號。
聯邦學習這一研究分支,正是在微眾銀行首席人工智能官楊強教授團隊和其領導的IEEE聯邦學習標準制定委員會的推動下,成為當今全球人工智能產學兩界最受關注的領域之一。
今年4月,微眾銀行人工智能部、電子商務與電子支付國家工程實驗室(中國銀聯)、鵬城實驗室、平安科技、騰訊研究院、中國信通院云大所、招商金融科技等多家企業和機構聯合推出《聯邦學習白皮書V2.0》。
在白皮書中,聯邦學習的最新定義是:在進行機器學習的過程中,各參與方可借助其他方數據進行聯合建模。各方無需共享數據資源,即數據不出本地的情況下,進行數據聯合訓練,建立共享的機器學習模型。
聯邦學習也根據數據集用戶特征和樣本的不同重疊情況,分為了橫向聯邦學習(即特征重疊較多)、縱向聯邦學習(即樣本重疊較多)和聯邦遷移學習(樣本、特征都重疊較少)。
應用實例方面,披露了聯邦學習在車險定價、信貸風控、銷量預測、視覺安防、輔助診斷、隱私保護廣告和自動駕駛方面的解決方案。
2018年,在楊強教授的帶領下,微眾銀行正式開展了聯邦學習研究,內部投入百余人,打造了一個覆蓋技術上下游的聯邦學習團隊,包含研究、學術、研發、商業、行業應用等多個細分隊伍。
在過往發表的多篇論文中,微眾AI團隊介紹了聯邦學習思路下針對有安全需求的有監督學習、強化學習、決策樹的具體方法,包括安全的聯邦遷移學習、聯邦強化學習以及 SecureBoost 安全樹模型。
楊強教授也曾在雷鋒網公開課上,以“聯邦學習前沿的研究與應用”為題,全面詳盡地講解了聯邦學習如何直面數據孤島和隱私保護的雙重挑戰。(課程全文與視頻回顧,已在公眾號《AI金融評論》發布)
微眾AI團隊透露,他們已申請100+項相關專利,牽頭推進IEEE聯邦學習國際標準與聯邦學習國家標準制定。
2018年10月,微眾銀行AI團隊向IEEE標準協會提交了關于建立聯邦學習標準的提案——「Guide forArchitectural Framework and Application of Federated Machine Learning」(聯邦學習基礎架構與應用標準),并于2018年12月獲批。
值得一提的是,微眾銀行還在2019年2月開源了聯邦學習框架FATE,這也是全球首個工業級聯邦學習開源框架。業界中主要的聯邦學習框架,除了FATE以外,目前還有谷歌開源的TensorFlow Federated,和百度開源的PaddleFL。
之所以稱FATE為「工業級」,在于它能夠解決包括計算架構可并行、信息交互可審計、接口清晰可擴展在內的三個工業應用常見問題。
FATE項目不僅提供了20多個聯邦學習算法組件、比如 LR、GBDT、CNN 等,覆蓋常規商業應用場景的建模需求,還特別提供了一站式聯邦模型服務解決方案,涵蓋聯邦特征工程、模型評估、在線推理等。
更重要的是,它給開發者提供了實現聯邦學習算法和系統的范本,大部分傳統算法都可以經過一定改造適配到聯邦學習框架中來。
通過項目開源,對相關機構進行 AI 賦能,提升機構自身的建模技術和能力,為工業界人員快速開發應用提供一種簡潔有效的解決方案,支持在多場景下的開拓和應用采用聯合共建、平臺服務等方式進行解決方案落地。
團隊也表示,它具備較強易用性,傳統建模知識和經驗都可以復用,用戶體驗上和傳統建模差異較小?!八峁┑腇ATE-Board建??梢暬δ?,極大提升了聯邦建模過程的交互體驗,也有效緩解建模技術人員的缺乏現狀。”
楊強透露稱,微眾也與VMWare深度合作、深度綁定,推出了KubeFATE系統,幫助用戶更好地在Cloud上面進行應用。
目前這一開源框架已在信貸風控、客戶權益定價、監管科技等領域推動應用落地。微眾銀行聯邦學習開源平臺FATE技術負責人范濤也在雷鋒網公開課上,就FATE的實際應用、聯邦學習的跨組織多方聯合建模等技術重點進行分享。
除了借助開源平臺打造技術開放生態,微眾AI團隊也發起了一個旨在開發和推廣安全和用戶隱私保護下的 AI 技術及其應用的項目「聯邦學習生態」(FedAI Ecosystem)。項目在確保數據安全及用戶隱私的前提下,建立基于聯邦學習的 AI 技術生態,使得各行業更充分發揮數據價值,推動垂直領域案例落地。
在微眾看來,聯邦學習不僅具有加速AI創新發展、保障隱私信息和數據安全的公共價值;從商業層面上看,聯邦系統更是一個“共同富?!钡牟呗裕軒涌珙I域的企業級數據合作,催生基于聯合建模的新業態和模式。
螞蟻金服與共享智能
為了機構與自身信息協同等業務問題,螞蟻金服從2016年開始投入到共享智能的研究中。在調研了差分隱私、矩陣變換等多種方案之后,螞蟻金服確定了目前的技術方向。
當前,業界解決隱私泄露和數據濫用的數據共享技術路線主要有兩條。一條是基于硬件可信執行環境(TEE:Trusted Execution Environment)技術的可信計算,另一條是基于密碼學的多方安全計算(MPC:Multi-party Computation)。
一些基于上述路線的解決方案也隨之出現,比如隱私保護機器學習PPML、聯邦學習、競合學習、可信機器學習等,不同解決方案采用的技術路線也相互有所重疊。
螞蟻金服集團共享智能部總經理周俊在接受InfoQ采訪時表示,螞蟻金服提出的共享智能(又稱:共享機器學習)就是結合了TEE與MPC兩條路線,同時結合螞蟻的自身業務場景特性,聚焦于金融行業的應用。
他總結,“共享智能的概念,或者說理念,是希望在多方參與且各數據提供方與平臺方互不信任的場景下,能夠聚合多方信息進行分析和機器學習,并確保各參與方的隱私不被泄漏,信息不被濫用?!?/p>
對于共享智能與聯邦學習的差異,周俊指出,聯邦學習的架構是由一臺中心服務器和多個計算節點構成,中心服務器會參與到整個計算過程,因此不適用于一些不需要中心服務器節點的應用場景。
聯邦學習要求原始數據不能出域,這也限制了其可以使用的技術方案;而共享智能是從問題出發,解決方案中不僅包含有類似聯邦學習的有中心服務器參與計算的模式,也包含完全去中心化的方案,還有基于TEE的共享學習方案。
螞蟻的共享智能,可以按照TEE和MPC兩條路線來理解。
基于TEE的共享學習,底層使用Intel的SGX技術,并可兼容其它TEE實現,但傳統的集群化方案在SGX上無法工作,螞蟻金服為此設計了全新分布式在線服務基本框架。
在模型訓練階段,除了基于自研的訓練框架支持了LR和GBDT的訓練外,螞蟻金服還借助于LibOS Occlum(螞蟻主導開發,已開源)和自研的分布式組網系統,成功將原生Xgboost移植到SGX內,并支持多方數據融合和分布式訓練。目前,螞蟻金服正在利用這套方案進行TensorFlow框架的遷移。
基于MPC的共享學習框架則分為安全技術層、基礎算子層,和安全機器學習算法,已支持包括LR、GBDT、DNN等頭部算法,后續一方面會繼續根據業務需求補充更多的算法,同時也會為各種算子提供更多的技術實現方案,以應對不同的業務場景。
更多共享智能的技術細節,周俊將會在本周六(9號)晚上八點做客雷鋒網公開課,詳解數據處理、模型訓練預測到推薦/風控等技術突破,并分享共享智能在工業界等真實場景應用案例的落地經驗與挑戰。
周俊表示,隨著技術和用戶心智的同步發展,共享智能的大規模落地將會很快發生,而最先受益的,是數據驅動的、并且對隱私保護有強需求的金融科技和醫療科技行業。
目前,螞蟻金服已經在智能信貸領域的多家機構落地了標桿型業務場景。同時,牽頭在推進共享智能的行業標準、聯盟標準、國家標準以及IEEE、ITU-T等國際標準。
今年3月,由螞蟻金服牽頭制定的共享智能聯盟標準,即《共享學習系統技術要求》,在AIIA聯盟(中國人工智能產業發展聯盟)正式發布。該標準由螞蟻金服與中國聯通、中國信通院、中國電信、阿里巴巴集團、北京大學、中和農信、百度以及云從科技共同制定。
在國際標準方面上,螞蟻金服已在HOE、ITOT進行標準的建立;在國內的CCSA(中國通信標準化協會)進行了標準的立項;在AIOSS(中國人工智能開源軟件發展聯盟)的標準已進入報批稿階段。
平安科技與聯邦智能
聯邦學習在平安科技落地生根之后,逐漸形成了以聯邦學習為龍頭、為核心,依托聯邦數據部落,實現具備隱私保護的聯邦推理,以聯邦激勵機制為紐帶所形成的AI新生態,也就是聯邦智能。研發團隊由平安科技副總工程師、聯邦學習技術部總經理王健宗帶領。
王健宗在做客雷鋒網《聯邦學習公開課》時介紹稱,聯邦數據部落是要把每一個數據孤島部落化,以此納入聯邦合作的體系中來。
首先是對來自個人或企業終端的本地數據進行預處理,其次對訓練數據特征化處理,再對聯邦數據部落中的數據進行質量評估,這也是形成聯邦激勵機制評價指標的重要步驟。
聯邦數據部落依據數據量級、數據有效性、數據信息密度、數據真實性等評價指標,對參與聯邦學習訓練的數據進行質量評估。同時也起到了數據監測與評估量化的作用。
聯邦推理,則是一個隱私與安全的鏈路過程,試圖讓模型在應用環節也能起到保護數據隱私的作用。
他強調,聯邦激勵機制是一個綜合性的閉環學習機制,實際上也融入宏觀經濟、管理范疇的一些概念。在平安科技的聯邦智能生態中,它所表征的是對貢獻度與收益的評估機制。
“在數據資產化的背景下,聯邦企業所貢獻的數據量級如果足夠大,且質量好,會直接為聯合模型帶來效果增益,而這一效果提升也會映射到參與聯邦的本地模型上,并為企業帶來實際的價值與收益。我們會以此量化這一過程中涉及的貢獻度?!蓖踅∽诒硎?。
在聯邦智能體系的基礎上,平安科技打造了蜂巢平臺。
平臺支持傳統的統計學習以及深度學習的模型,比如邏輯回歸、線性回歸、樹模型等。在整個模型訓練過程中,對梯度進行非對稱加密,整合梯度和參數優化、更新模型。最后加密原始傳輸數據,實現推理結果。
目前,蜂巢平臺的產品定位是服務于營銷、獲客、定價、風控、智慧城市和智慧醫療。
同盾科技與知識聯邦
同盾科技同樣是從2018年起著手研發聯邦學習,2019年開始搭建知識聯邦的雛形,由同盾科技人工智能研究院院長李曉林牽頭研發工作。
知識聯邦,被定義為統一的安全多方應用框架,它支持安全多方查詢、安全多方計算、安全多方學習、安全多方推理等多種聯邦應用。本月初,同盾科技也發布了《知識聯邦白皮書》,將知識聯邦的全貌詳細展露。
同盾科技人工智能研究院深度學習首席專家李宏宇表示,知識聯邦在借鑒一些相關技術的同時,也具備一定的獨創性,尤其是在認知層和知識層聯邦都是自主創新的。
以下這張表格也更簡單直接地體現了知識聯邦與其它技術領域之間的關系:

對于知識聯邦與聯邦學習的區別和聯系,李宏宇指出,聯邦學習更關注的是聯合建模訓練過程,知識聯邦關注的是通過聯邦創建或應用提取有價值的知識,其聯邦的目的可能是建模、預測、計算、推理。知識聯邦不僅僅是面向學習,還包括安全的多方計算和知識推理。
因此,在同盾的定義里,聯邦學習是知識聯邦的一個子集,專注于數據分布的聯合建模;知識聯邦關注的是安全的數據到知識的全生命周期的知識創造、管理和使用及其監管。
白皮書指出,除了按數據特點、對象類型分類,知識聯邦還可以通過聯邦階段進行分類:
信息層通過安全多方計算在密文空間上直接進行計算或學習,進而提取或發現知識;
模型層聯邦與傳統的聯邦學習相似,基于模型加密交互共創知識,并實現知識共享;
認知層對同/異構數據進行認知學習之后進行集成或多模態融合,進而生成復雜的知識網絡;
知識層對分布的知識進一步學習提煉,實現基于知識的表達推理及智能決策。
李宏宇在雷鋒網《聯邦學習公開課》上介紹稱,基于知識聯邦理論體系,同盾科技推出了工業級應用產品智邦平臺(iBond),通過建立相應的任務聯盟,解決不同應用場景需求。未來平臺也將推進聯邦數據安全交換標準的建立。
目前,知識聯邦的主要應用場景也集中在金融、保險、政務和醫療等行業。
京東數科與異步聯邦學習
聯邦學習在京東數科手中,則長成了異步聯邦學習這棵大樹,構筑成全新的數據協同產業應用生態。目前,異步聯邦學習由京東數科AI實驗室首席科學家薄列峰、金融科技事業部技術部智能數據負責人王知博等人帶隊研發。
王知博在接受InfoQ采訪時表示,京東數科的聯邦學習之路目前已經歷以下兩個階段:
第一個階段,搭建一站式聯邦學習建模平臺,統一管理數據源與模型全生命周期,降低聯邦學習模型開發成本、提高開發效率。
第二個階段,服務業務落地。目前,聯邦學習在信貸風控、智能營銷等方向均有一定應用,并在實踐中逐步驗證效果。
異步聯邦學習技術首先在金融場景落地,助力京東數科與合作機構共建大數據風控模型。目前京東數科已經構建行業級的聯合建模解決方案。
目前,其聯邦學習技術已經在雄安新區“塊數據平臺”項目中得到了應用,讓交通、規劃、環保等各個部門打破數據孤島,更高效地溝通、協同,推動城市“新基建”進入新階段。
近日,京東數科還宣布成立產業AI中心,繼續推動異步聯邦學習的發展。
在應用方面,未來重點是深耕金融業務場景,以智能信貸風控為例,需要建立聯邦安全聯盟,通過合理的生態機制,引入更多的參與方,從而更全面的刻畫用戶,從而提升模型效果,有效識別信用風險,提升業務收益。
京東數科AI實驗室首席科學家薄列峰表示,異步聯邦算法在金融領域得到驗證后,也在智能城市領域解決了重量級難題。
例如在雄安新區智能城市建設中,為保證全量多模態的城市數據能夠實時匯聚、融合、應用,“基于聯邦學習的數字網關”技術使得數據不出庫的前提下,實現城市各部門數據的融合,這一技術也與異步聯邦算法有著異曲同工之處。
聯邦學習(微眾銀行)、知識聯邦和聯邦智能都已在四月《金融聯邦學習公開課》系列,由各自團隊的領軍人物或研發主力帶來分享。
今晚八點,本系列正式啟動第二輪,螞蟻金服將披露共享智能更多技術細節。后續將有來自騰訊CSIG、京東數科、百度、富數科技等企業的技術高管,進一步「拆解」聯邦學習。
掃碼關注「 AI金融評論 」,進群收看課程直播,和往期課程全部回放。

雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。